Micron-scale robots (ubots) have recently shown great promise for emerging medical applications, and accurate control of ubots is a critical next step to deploying them in real systems. In this work, we develop the idea of a nonlinear mismatch controller to compensate for the mismatch between the disturbed unicycle model of a rolling ubot and trajectory data collected during an experiment. We exploit the differential flatness property of the rolling ubot model to generate a mapping from the desired state trajectory to nominal control actions. Due to model mismatch and parameter estimation error, the nominal control actions will not exactly reproduce the desired state trajectory. We employ a Gaussian Process (GP) to learn the model mismatch as a function of the desired control actions, and correct the nominal control actions using a least-squares optimization. We demonstrate the performance of our online learning algorithm in simulation, where we show that the model mismatch makes some desired states unreachable. Finally, we validate our approach in an experiment and show that the error metrics are reduced by up to 40%.
translated by 谷歌翻译
勘探是基于深入强化学习(DRL)的无模型导航控制的基本挑战,因为针对目标驱动的导航任务的典型勘探技术依赖于噪声或贪婪的政策,这些策略对奖励的密度敏感。实际上,机器人总是在复杂的混乱环境中部署,其中包含密集的障碍和狭窄的通道,从而提高了很难探索训练的自然备用奖励。当预定义的任务复杂并且具有丰富的表现力时,这种问题变得更加严重。在本文中,我们专注于这两个方面,并为任务指导的机器人提供了一种深层的政策梯度算法,该机器人在复杂的混乱环境中部署了未知的动态系统。线性时间逻辑(LTL)用于表达丰富的机器人规范。为了克服训练期间探索的环境挑战,我们提出了一种新颖的路径计划引导奖励方案,该方案在状态空间上密集,并且至关重要的是,由于黑盒动力学而导致计算的几何路径的不可行性。为了促进LTL满意度,我们的方法将LTL任务分解为使用分布式DRL解决的子任务,在该子任务中,可以使用深层政策梯度算法并行培训子任务。我们的框架被证明可显着提高性能(有效性,效率)和对大规模复杂环境中复杂任务的机器人的探索。可以在YouTube频道上找到视频演示:https://youtu.be/yqrq2-ymtik。
translated by 谷歌翻译
网络物理系统中的实时和人为可解释的决策是一个重要但具有挑战性的任务,通常需要预测来自有限数据的未来可能的事件。在本文中,我们介绍了一个时间增量学习框架:给定具有共同时间范围的标记信号迹线的数据集,我们提出了一种方法来预测随时间递增地接收的信号的标签,称为前缀信号。前缀信号是当生成时被观察的信号,并且它们的时间长度短于信号的公共范围。我们介绍了一种基于决策树的决策树方法来生成来自给定数据集的有限数量的信号时间逻辑(STL)规范,并基于它们构造预测器。作为时间序列数据的二进制分类器,每个STL规范都会随着时间的推移捕获数据集的时间特性。通过将时间变量权重分配给STL公式来构建预测器。通过使用神经网络来学习权重,目的是最小化在给定数据集上定义的前缀信号的错误分类率。通过计算前缀信号的鲁棒性相对于每个STL公式的鲁棒性的加权之和来预测前缀信号的标签来预测前缀信号的标签。我们的算法的有效性和分类性能在城市驾驶和海军监测案例研究中进行了评估。
translated by 谷歌翻译
学习数据的动态系统属性提供了重要的见解,帮助我们了解此类系统并减轻不良结果。在这项工作中,我们提出了一种从数据的正式逻辑规范学习时空时间(ST)属性的框架。我们介绍SVM-STL,信号信号时间逻辑(STL)的扩展,能够指定具有呈现时变空间模式的各种动态系统的空间和时间特性。我们的框架利用机器学习技术从空间模式序列给出的系统执行中学习SVM-STL规范。我们提供了处理标记和未标记数据的方法。此外,给定的系统要求以SVM-STL规范的形式,我们提供了一种参数合成方法,以找到最大化此类规格满意度的参数。我们的学习框架和参数合成方法在反应扩散系统的示例中展示。
translated by 谷歌翻译
时间序列数据分类对于自治系统(例如机器人和自动驾驶汽车)的分析和控制至关重要。最近已经提出了基于时间逻辑的学习算法作为此类数据的分类器。但是,当前的框架要么不准确,例如自动驾驶等现实应用程序,要么产生缺乏可解释性的漫长而复杂的公式。为了解决这些局限性,我们引入了一种新颖的学习方法,称为“增强简洁决策树(BCDTS)”,以生成表示为信号时间逻辑(STL)公式的二进制分类器。我们的算法利用简洁决策树(CDT)的合奏来改善分类性能,其中每个CDT都是由一组技术赋予的决策树,以生成更简单的公式并提高可解释性。我们的算法的有效性和分类性能在海军监视和城市驾驶案例研究中评估。
translated by 谷歌翻译
本文开发了一种基于模型的强化学习(MBR)框架,用于在线在线学习无限范围最佳控制问题的价值函数,同时遵循表示为控制屏障功能(CBFS)的安全约束。我们的方法是通过开发一种新型的CBFS,称为Lyapunov样CBF(LCBF),其保留CBFS的有益特性,以开发最微创的安全控制政策,同时也具有阳性半自动等所需的Lyapunov样品质 - 义法。我们展示这些LCBFS如何用于增强基于学习的控制策略,以保证安全性,然后利用这种方法在MBRL设置中开发安全探索框架。我们表明,我们的开发方法可以通过各种数值示例来处理比较法的更通用的安全限制。
translated by 谷歌翻译